Determining causal effects of temporal multi-intervention assists decision-making. Restricted by time-varying bias, selection bias, and interactions of multiple interventions, the disentanglement and estimation of multiple treatment effects from individual temporal data is still rare. To tackle these challenges, we propose a comprehensive framework of temporal counterfactual forecasting from an individual multiple treatment perspective (TCFimt). TCFimt constructs adversarial tasks in a seq2seq framework to alleviate selection and time-varying bias and designs a contrastive learning-based block to decouple a mixed treatment effect into separated main treatment effects and causal interactions which further improves estimation accuracy. Through implementing experiments on two real-world datasets from distinct fields, the proposed method shows satisfactory performance in predicting future outcomes with specific treatments and in choosing optimal treatment type and timing than state-of-the-art methods.
translated by 谷歌翻译
Image-based head swapping task aims to stitch a source head to another source body flawlessly. This seldom-studied task faces two major challenges: 1) Preserving the head and body from various sources while generating a seamless transition region. 2) No paired head swapping dataset and benchmark so far. In this paper, we propose an image-based head swapping framework (HS-Diffusion) which consists of a semantic-guided latent diffusion model (SG-LDM) and a semantic layout generator. We blend the semantic layouts of source head and source body, and then inpaint the transition region by the semantic layout generator, achieving a coarse-grained head swapping. SG-LDM can further implement fine-grained head swapping with the blended layout as condition by a progressive fusion process, while preserving source head and source body with high-quality reconstruction. To this end, we design a head-cover augmentation strategy for training and a neck alignment trick for geometric realism. Importantly, we construct a new image-based head swapping benchmark and propose two tailor-designed metrics (Mask-FID and Focal-FID). Extensive experiments demonstrate the superiority of our framework. The code will be available: https://github.com/qinghew/HS-Diffusion.
translated by 谷歌翻译
Table of contents (ToC) extraction aims to extract headings of different levels in documents to better understand the outline of the contents, which can be widely used for document understanding and information retrieval. Existing works often use hand-crafted features and predefined rule-based functions to detect headings and resolve the hierarchical relationship between headings. Both the benchmark and research based on deep learning are still limited. Accordingly, in this paper, we first introduce a standard dataset, HierDoc, including image samples from 650 documents of scientific papers with their content labels. Then we propose a novel end-to-end model by using the multimodal tree decoder (MTD) for ToC as a benchmark for HierDoc. The MTD model is mainly composed of three parts, namely encoder, classifier, and decoder. The encoder fuses the multimodality features of vision, text, and layout information for each entity of the document. Then the classifier recognizes and selects the heading entities. Next, to parse the hierarchical relationship between the heading entities, a tree-structured decoder is designed. To evaluate the performance, both the metric of tree-edit-distance similarity (TEDS) and F1-Measure are adopted. Finally, our MTD approach achieves an average TEDS of 87.2% and an average F1-Measure of 88.1% on the test set of HierDoc. The code and dataset will be released at: https://github.com/Pengfei-Hu/MTD.
translated by 谷歌翻译
已经观察到,可以从这两种方式中提取视听嵌入,以获得人验证的稳健性。但是,似乎从每个帧中生成单个话语表示的聚合器似乎并未得到很好的探索。在本文中,我们提出了一个视听网络,该网络从融合的角度考虑聚合器。我们首次在面对面验证中引入了改进的细心统计数据。然后,我们发现合并过程中的模式之间存在很强的相关性,因此提出了关节关注的合并,其中包含循环一致性以学习隐式框架间的重量。最后,将这种方式与封闭的注意机制融合在一起。所有提出的型号均在Voxceleb2开发数据集上进行培训,最佳系统分别在Voxceleb1的三个正式步道列表中获得0.18 \%,0.27 \%和0.49 \%EER,据我们所知,这是个人发布的最佳成绩确认。作为分析,生成可视化图来解释该系统如何在模态之间相互作用。
translated by 谷歌翻译
旋转速度是要测量的重要指标之一,用于校准制造中的电动机,在汽车维修期间监视发动机,电气设备上的故障等。或在现实世界应用程序方案中使用不便。在本文中,我们提出了通过在移动设备上有效的动态视觉传感的基于事件的转速表。通过将动态视觉传感器作为一种新的传感模式引入动态视觉传感器,将EV-TACH设计为高保真和方便的转速表,以在各种现实世界中精确地捕获高速旋转。通过设计一系列的信号处理算法定制,用于移动设备上的动态视觉感测,EV-TACH能够从旋转目标上的动态视觉传感产生的事件流中准确提取旋转速度。根据我们的广泛评估,EV-TACH的相对平均绝对误差(RMAE)高达0.03%,在固定测量模式下与最先进的激光转速计相当。此外,EV-TACH对于用户手的微妙运动具有鲁棒性,因此可以用作手持设备,在该设备中,激光转速计无法产生合理的结果。
translated by 谷歌翻译
近年来,多视图学习迅速发展。尽管许多先前的研究都认为每个实例都出现在所有视图中,但在现实世界应用程序中很常见,从某些视图中丢失实例,从而导致多视图数据不完整。为了解决这个问题,我们提出了一个新型潜在的异质图网络(LHGN),以实现不完整的多视图学习,该学习旨在以灵活的方式尽可能充分地使用多个不完整的视图。通过学习统一的潜在代表,隐含地实现了不同观点之间一致性和互补性之间的权衡。为了探索样本与潜在表示之间的复杂关系,首次提出了邻域约束和视图约束,以构建异质图。最后,为了避免训练和测试阶段之间的任何不一致之处,基于图形学习的分类任务应用了转导学习技术。对现实世界数据集的广泛实验结果证明了我们模型对现有最新方法的有效性。
translated by 谷歌翻译
自动开放域对话评估是对话系统的关键组成部分。最近,基于学习的评估指标在开放域对话评估中取得了最先进的表现。但是,这些仅关注一些素质的指标很难全面评估对话。此外,这些指标缺乏有效的分数组成方法,无法获得各种评估质量。为了解决上述问题,我们提出了基于相关性重新缩放(MME-CR)的多项式评估,以评估开放域对话。首先,我们建立了一个评估度量,该评估度量由5组平行的子对象组成,称为多金属评估(MME),以全面评估对话的质量。此外,我们提出了一种称为相关重新缩放(CRS)的新型分数组成方法,以模拟子计量与多样性之间的关系。我们的方法MME-CRS在DSTC10 TRACK5 SubTask1自动开放域对话评估挑战的最终测试数据中排名第一,这证明了我们提出的方法的有效性。
translated by 谷歌翻译
这项工作研究了关节降雨和雾霾清除问题。在现实情况下,雨水和阴霾通常是两个经常共同发生的共同天气现象,可以极大地降低场景图像的清晰度和质量,从而导致视觉应用的性能下降,例如自动驾驶。但是,在场景图像中共同消除雨水和雾霾是艰难而挑战,在那里,阴霾和雨水的存在以及大气光的变化都可以降低现场信息。当前的方法集中在污染部分上,因此忽略了受大气光的变化影响的场景信息的恢复。我们提出了一个新颖的深神经网络,称为不对称双重编码器U-NET(ADU-NET),以应对上述挑战。 ADU-NET既产生污染物残留物,又产生残留的现场,以有效地去除雨水和雾霾,同时保留场景信息的保真度。广泛的实验表明,我们的工作在合成数据和现实世界数据基准(包括RainCityScapes,Bid Rain和Spa-data)的相当大的差距上优于现有的最新方法。例如,我们在RainCityScapes/spa-data上分别将最新的PSNR值提高了2.26/4.57。代码将免费提供给研究社区。
translated by 谷歌翻译
Uyghur语音常常遇到辅音和元音减少,这可能导致Uyghur自动语音识别(ASR)的性能下降。我们最近提出的基于掩蔽的学习策略,电话遮蔽训练(PMT),减轻了这种现象在Uyghur Asr的影响。尽管PMT实现了显着改进,但由于PMT(音素)和建模单元(字件)的掩模单元之间的粒度不匹配,仍然存在进一步提升的空间。为了提高PMT的性能,我们提出了PMT(PM-MET)的多建模单元训练(MMUT)架构融合。 MUT框架的概念是将编码器分成两个部分,包括声学级表示(AF-TO-PLR)和音素级表示的声学特征序列(PLR-TO-WPLR)。它允许通过基于中间音素的CTC丢失来优化AF-To-PLR,以了解PMT带来的富音素级上下文信息。 UYGHUR ASR上的实验结果表明,该提出的方法显着改善,优于纯PMT(减少24.0至23.7,在Read-Test上,分别在口服检验中的38.4至36.8。我们还使用ESPNET1对960小时的LibrisPeech基准进行实验,该基准测试在没有LM Fusion的所有测试集上实现约10%的相对WER减少,与最新的ESPNET1预先训练的模型相比。
translated by 谷歌翻译
最近,基于模板的跟踪器已成为领先的跟踪算法,在效率和准确性方面具有希望的性能。然而,查询特征与给定模板之间的相关操作仅利用准确的目标本地化,导致状态估计误差,特别是当目标遭受严重可变形变化时。为了解决这个问题,已经提出了基于分段的跟踪器,以便使用每像素匹配来有效地提高可变形物体的跟踪性能。然而,大多数现有跟踪器仅指初始帧中的目标特征,从而缺乏处理具有挑战性因素的辨别能力,例如,类似的分心,背景杂乱,外观变化等。在此目的,我们提出了一种动态的紧凑型存储器嵌入以增强基于分段的可变形视觉跟踪方法的辨别。具体而言,我们初始化与第一帧中的目标功能嵌入的内存嵌入。在跟踪过程中,与现有内存具有高相关的当前目标特征被更新为在线嵌入的内存。为了进一步提高可变形对象的分割精度,我们采用了点对集的匹配策略来测量像素 - 方向查询特征和整个模板之间的相关性,以捕获更详细的变形信息。关于六个具有挑战性的跟踪基准的广泛评估,包括VOT2016,VOT2018,VOT2019,GOT-10K,TrackingNet和莱斯特展示了我们对近期近似追踪者的方法的优势。此外,我们的方法优于基于出色的基于分段的跟踪器,即DVIS2017基准测试。
translated by 谷歌翻译